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摘 要 : 当前 ,数据 流 分 类 算法 的 潮流 是 集成 分 类 算法 ， 因 为 集成 算法 提供 了 比 单 分 类 算法 更 好 的 性 能 和 更 突出 的 表 
现 。 同 时 在 现实 世界 的 实际 应 用 中 容易 部 署 ， 对 概念 漂移 有 快速 的 适应 性 和 恢复 性 ， 而 且 在 类 不 平衡 问题 的 处 理 中 也 
具有 最 佳 的 分 类 性 能 。 详 细 介绍 了 国内 外 集成 分 类 算法 ， 对 集成 分 类 工法 的 两 个 部 分 〈 基 分 类 器 组 合 和 动态 更 新 集成 
模型 ) 进行 了 详细 综述 ， 明 确 区 分 不 同 集成 算法 的 优 缺点 ， 对 比 算 法 和 实验 数据 集 。 并 且 提 出 进一步 的 研究 方向 和 考 
虑 的 解决 办 法 。 
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Summarization of data stream ensemble classification algorithm 


Xu Guanying, Han Meng, Wang Shaofeng, Jia Tao 
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Abstract: Currently, the trend of data stream classification algorithms is to ensemble classification algorithms. Because the 


ensemble algorithm provides better performance and more outstanding performance than the single classification algorithm. At 
the same time, it is easy to deploy in practical applications in the real world, has rapid adaptability and recovery to concept drift, 
and has the best classification performance in the processing of class imbalance problems. Based on the outstanding features 
and performance of the above ensemble classification algorithm, it has won extensive research by scholars at home and abroad. 
This paper introduces the ensemble classification algorithm at home and abroad in detail. The two parts of the ensemble 
classification algorithm (base classifier combination and dynamic update ensemble model) are reviewed in detail, and the 
advantages and disadvantages of different integration algorithms, comparison algorithm and experimental data set are clearly 
distinguished. The paper proposed further research Directions and considerations. 
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欢迎 ， 因 为 除了 利用 弱 学 习 者 之 外 ， 它 们 还 可 用 于 处 理 一 般 上 

机 器 学 习 问 题 以 及 特定 数据 流 的 挑战 ， 例 如 ， 集 合 学 习 者 已 被 

近年 来 ， 随 着 大 数据 的 快速 发 展 ， 这 些 数 据 中 蕴含 着 大 量 ”广泛 应 用 在 解决 数据 流 概 念 漂移 加 , 反复 出 现 的 概念 四, 新 颖 的 

有 用 的 信息 ， 为 了 获得 这 些 信息 ， 研 究 人 员 开 展 了 大 量 的 数据 ”类 检测 中 的 问题 上 。 集 成 学 习 者 在 这 些 问 题 上 都 体现 出 了 比 单 
挖掘 任务 。 最 近 ， 在 数据 流 挖掘 的 研究 领域 中 ， 从 大 量 快速 生 ”分 类 模型 更 好 的 性 能 。 
成 的 数据 中 获得 有 用 的 模型 已 经 取得 了 很 多 进展 。 数 据 流 对 学 和 传统 的 静态 数据 相 比 ,数据 流 具 有 实时 的 ， 高效 的 ， 快 速 
习 算 法 提出 了 若干 挑战 中。 学 习 者 的 集合 已 被 广泛 研究 和 部 署 ” 到 达 和 到 达 的 实例 只 能 处 理 一 次 的 特点 。 因 此 在 对 数据 流 中 的 
在 现实 世界 的 问题 中 。 研 究 学 者 们 提供 了 三 个 理由 来 证 明 使 用 ”数据 进行 挖掘 任务 时 面临 以 下 挑战 ，a) 数 据 流 中 的 数据 仅 能 处 
集合 而 不 是 单个 学 习 者 , 即 统计 学 , 计算 学 和 代表 性 是 。 对 这 种 里 一 次 , 流动 的 数据 并 不 能 存储 在 数据 仓库 当中 国 ; b) 处 理 的 结 
偏好 的 另 一 种 解释 是 难以 获得 强大 的 学 习 者 ， 而 一 组 弱 学 习 者 。 果 只 能 最 大 程度 的 近似 ; c) 在 流 中 数据 的 分 布 会 随 着 时 间 的 推 
相对 容易 发 展 并 且 可 以 有 效 地 被 提升 为 强大 的 学 习 者 内 ， 只 要 BAR, 即 发 生 概 念 漂移 (concept drift) PLR . 因此 要 求 面向 
它们 受到 了 战略 训练 和 结合 。 集 成 学 习 者 在 数据 流 设置 中 很 受 ” 流 处 理 的 算法 必须 具有 快速 的 恢复 性 ， 适 应 性 ， 准 确 性 和 和 鲁 棱 
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性 。 能 够 实时 更 新 算法 ， 满 足 算法 能 处 理 接 下 来 流 中 分 布 改 变 1.3.1 单 分 类 模型 
的 数据 。 在 面向 处 理 流 数据 的 算法 中 ,分 类 是 挖掘 数据 流 中 最 重 单 分 类 器 模型 是 不 断 的 用 新 到 来 的 数据 来 递归 的 更 新 自身 
也 是 最 关键 的 部 分 。 目 前 静态 数据 处 理 的 方式 已 经 较为 成 熟 ， ”结构 ， 使 自身 结构 能 够 适应 流 中 数据 的 变化 ， 并 能 对 流 中 的 实 
传统 分 类 方法 已 经 不 能 满足 流 挖 掘 任务 。 对 传统 挖掘 算法 来 讲 ， ” 例 准确 分 类 。 单 分 类 模型 主要 基本 技术 有 KNN, 决策 树 ,SVM， 
在 发 生 概念 漂移 的 数据 流 中 已 经 不 能 进行 挖掘 任务 了 ， 因 此 面 ，” 贝 叶 斯 ， 还 辑 回归 和 神经 网 络 等 。 
向 流 数据 的 处 理 算 法 就 显得 尤为 重要 。 aIKNN。 找 到 训练 集 样本 空间 中 的 天 个 距离 预测 样本 x 最 
1 ”背景 知识 近 的 点 ,统计 天 个 距离 最 近 的 点 的 类 别 , 找 出 个 数 最 多 的 类 别 ， 
将 x 归 入 该 类 别 。 优 点 : 思想 简单 ， 理 论 成 熟 ， 既 可 以 用 来 做 
1.1 数据 流 分 类 分 类 也 可 以 用 来 做 回归 ; 可 用 于 非 线性 分 类 ;， 训练 时 间 复 杂 度 
分 类 (classification)nao 在 流 数据 挖掘 任务 中 是 尤为 重要 的 ， 为 00D); 缺 点 : 计算 量 大 ; 难以 处 理 类 不 平衡 问题 ( 即 有 些 类 别 
而 且 在 实际 生活 中 也 有 很 广泛 的 应 用 。 例 如 网 络 入 侵 检 测 ， 金 ”“” 的 样本 数量 很 多 ， 而 其 他 样本 的 数量 很 少 ) 
融 欺 骗 ， 垃 圾 邮件 过 滤 等 问题 上 00。 分 类 任务 就 是 在 包含 实例 b) 决 策 树 方法 采用 自 项 向 下 的 递归 方式 ， 在 决策 树 的 内 部 
和 实例 所 属 的 类 标签 中 的 初始 训练 集 里 ,通过 对 数据 集中 的 实 。 节点 进行 属性 值 的 比较 并 依据 不 同 的 属性 值 推 断 该 节点 向 下 的 
例 进行 学 习 得 到 一 个 目标 函数 用 这 个 函数 了 来 预测 下 一 个 未 。” 分支， 在 决策 树 的 叶 节 点 得 到 结论 (预测 ) 。 决 策 树 是 一 个 类 
知 实例 的 类 标 。 即 通过 某 种 学 习 算 法 在 假设 样本 空间 中 找到 一 以 于 流程 图 状 的 树 结 构 ， 决 策 树 中 每 一 个 内 部 节点 表示 在 一 个 
个 大 的 近似 函数 g， 这 个 近似 函数 g 就 叫 分 类 器 494， 也 称 为 分 。” 属性 上 的 测试 ， 每 一 个 分 支 代表 一 个 测试 输出 ， 而 每 一 个 叶 节 
类 模型 (classification model)。 流 数据 分 类 任务 的 输入 是 记录 ,每 。 ”点 代表 类 或 类 分 布 。 优 点 : 计算 量 简单 ， 可 解释 性 强 ， 比 较 适 


条 记录 也 称 作 实 例 或 者 样本 ， 用 元 组 (x,y) 表示 其 中 x 是 属性 合 处 理 有 缺失 属性 值 的 样本 ， 能 够 处 理 不 相关 的 特征 。 缺 点 : 
的 集合 ，》 是 实例 所 属 的 类 标签 , 即 样本 的 类 标号 。 容易 过 拟 合 。 
1.2 ey c)SVM 法 即 支持 向 量 机 (Support Vector Machine) 法 ， 是 二 
增 量 学 习 (incremental learning) 是 指 一 个 学 习 体 系 不 断 的 “元 分 类 模型 。SVM 的 主要 思想 可 以 概括 为 两 点 : Ca) 它 是 针对 
从 新 的 样本 数据 中 学 习 新 的 知识 。 在 进行 流 数据 分 类 任务 中 ， 线性 可 分 情况 进行 分 析 ， 对 于 线性 不 可 分 的 情况 ， 通 过 使 用 非 
需要 保证 分 类 器 能 时 刻 适 应 当前 流 中 的 数据 分 布 ， 因 此 需要 获 “线性 映射 算法 将 低 维 输入 空间 线性 不 可 分 的 样本 转换 为 高 维特 
得 新 数据 对 原始 分 类 器 进行 修改 ， 这 种 不 断 在 线 学 习 新 实例 的 ”” 征 空间 使 其 线性 可 分 ， 从 而 使 得 高 维特 征 空间 采用 线性 算法 对 
技术 〔 即 增 量 学 习 ) 是 解决 数据 流 问 题 不 可 缺少 的 03。 样本 的 非 线性 特征 进行 线性 分 析 成 为 可 能 ; b) 它 是 基于 结构 
增 量 学 习 主要 有 两 种 学 习 方 式 ， 第 一 种 是 对 原本 并 不 具有 风险 最 小 化 理论 ， 在 特征 空间 中 构建 最 优 超 平面 ， 使 学 习 器 得 
增 量 处 理 能 力 的 现 有 算法 进行 改进 ， 让 其 具备 一 定 处 理 数据 流 ”到 全 局 最 优 解 ， 并 且 在 整个 样本 空间 的 期 望 以 某 个 概率 满足 一 
中 新 到 来 实例 的 能 力 。 对 原始 算法 进行 改造 时 ， 核 心思 想 是 利 定 上 界 。 优 点 : 可 用 于 线性 / 非 线 性 分 类 ， 也 可 以 用 于 回归 ; 低 
用 算法 的 原理 或 者 实验 的 辅助 信息 ， 通 过 重新 进行 数学 建 模 从 ，” 泛 化 误差 ;容易 解释 ;计算 复杂 度 较 低 。 缺 点 : 对 参数 和 核 函 
而 使 算法 达到 具有 增 量 处 理 数 据 的 能 力 。 例 如 有 基于 支持 向 量 。 数 的 选择 比较 敏感 。 
机 改造 的 增 量 支持 向 量 机 (ISVM) HAA LASVM05。 基 于 随机 d) 贝 叶 斯 分 类 器 的 分 类 是 通过 对 象 的 先 验 概率 ， 利 用 贝 叶 
森林 算法 改造 的 在 线 随机 森林 CORF) 04, 基 于 静态 广义 学 习 向 斯 公式 计算 出 其 后 验 概率 ， 所 谓 的 后 验 概 率 也 就 是 该 对 象 属于 
量 量 化 (GLVQ) 的 增 量 学 习 向 量 量化 CILVQ) "71, 某 一 类 的 概率 ， 然 后 选择 具有 最 大 后 验 概率 的 类 作为 该 对 象 所 
第 二 种 方式 就 是 集成 增 量 技术 。 将 集成 学 习 和 增 量 学 习 相 届 的 类 。 即 在 哪个 类 标 上 的 后 验 概率 大 就 属于 哪个 类 。 优 点 : 
结合 ， 让 算法 具有 增 量 学 习 的 能 力 。 增 量 学 习 对 数据 流 中 的 实 。 对 小 规模 的 数据 表现 很 好 ,适合 多 分 类 任务 ,适合 增 量 式 训练 。 
例 是 非常 合适 Mu EU 只 要 是 数据 流 中 的 实例 逐个 到 缺点: 对 输入 数据 的 表达 形式 很 敏感 (连续 数据 的 处 理 方式 ) 。 
， 并 且 学 习 算 法 能 够 从 新 的 数据 中 学 习 ， 同 时 还 能 确保 之 前 e) 逻 辑 回 归 (Logistic Regression) 是 用 于 处 理 因 变量 为 分 
学 习 的 知识 。 Eo c cu DEUS. 类 变量 的 回归 问题 ， 常 见 的 是 二 分 类 或 二 项 分 布 问题 ， 二 分 类 
例如 Learn++.NC 和 Learn UDNC , 演化 的 神经 网 络 ENN 等 。 问题 的 概率 与 自 变 量 之 间 的 关系 图 形 往往 是 一 个 8 型 曲线 ， 采 
1.8 分 类 器 模型 用 的 Sigmoid 函数 实现 。 优 点 : 实现 简单 ， 分 类 时 计算 量 非常 
随 着 数据 量 越 来 越 多 ， 数 据 挖 掘 研究 人 员 把 分 类 器 模型 主 D, WERK, FEARR. wR: 容易 欠 拟 合 ， 一 般 准 确 度 
要 分 成 两 类 。 单 分 类 器 模型 和 集成 分 类 模型 。 周 志 华 教授 在 机 ”不 高 ， 只 能 处 理 二 分 类 问题 。 
器 学 习 书 中 提出 了 集成 学 习 是 目前 机 器 学 习 最 具有 前 景 的 机 器 神经 网 络 就 是 一 组 相互 连接 的 输入 输出 神经 单元 ， 这 些 
学 习 技术 之 一 ， 而 且 集成 学 习 模型 对 单 分 类 模型 的 优势 突出 ， 单元 之 间 的 每 个 连接 都 关联 一 个 权重 。 在 网 络 学 习 阶 段 ， 网 络 
对 概念 漂移 的 发 生体 现 了 快速 的 恢复 性 ， 适 应 性 ， 并 在 分 类 准 ”通过 调整 权重 来 实现 输入 样本 与 其 相应 类 别 〈 正 确 ) 的 对 应 。 
确 度 上 ， 比 单 分 类 器 精度 更 高 。 于 神经 网 络 学 习 主要 是 针对 其 中 的 连接 权重 进行 的 ， 因 此 神 


201811.00172v1 


hinaXiv: 
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经 网 络 的 学 习 有 时 也 称 为 连接 学 习 。 优 点 : 有 很 强 的 非 线 性 拟 


合 能 力 ， 可 映射 任意 复杂 的 非 线 怕 
便于 计算 机 实现 。 缺 点 : 不 能 向 用 


数据 不 充分 的 时 候 ， 


特征 都 变 为 数字 ， 把 一 切 推 


丢失 信息 。 


经 网 络 就 无 法 


多 单一 模型 结构 复杂 ， 


很 好 , 可 塑性 


关系 ， 而 且 学 习 规则 简单， 
户 提出 必要 的 询问 ， 而 且 当 
进行 工作 。 把 一 切 问题 的 
都 变 为 数值 计算 ， 其 结果 势必 是 


表现 能 力 差 ， 但 是 单一 模型 稳定 性 
较 高 。 对 发 生 概念 漂移 的 流 数据 也 有 很 好 的 表现 。 


例如 最 早 提出 的 VFDT0S, 它 使 用 满足 hoeffding 边界 的 少量 数 


留用 
出 的 。 


fr VF 


1.3.2 集成 分 
在 平稳 上 


T4 


mt 


学 习 , 每 学 习 一 个 子 集 ， 
分 类 器 ) ， 然 后 采 / 
成 学 习 器 (集成 分 类 器 


通过 茶 种 机 制 将 各 个 基 分 类 器 的 结果 进行 综合 ， 最 后 将 综合 
行 输出 ， 得 到 未 知 实例 的 类 标签 〈 预 测 ) 。 集 成 学 
习 把 多 个 学 习 器 结合 起 来 ， 因 此 本 文 需要 考虑 这 样 下 面 
题 ， 怎 样 才能 让 集成 学 习 器 体现 出 比 单一 学 习 器 更 好 的 学 习性 
? 所 以 ， 解 决 这 个 问题 就 出 


后 的 结果 进 


据 训 练 出 来 的 
训练 出 的 决策 树 能 
此 没有 考虑 到 
VFDT 作为 训练 算法 。 可见 VFDT À 


FEES FRE, FI 


近似 的 分 类 结果 。 
念 漂移 现象 。 但 是 ， 目 前 


于 当时 的 局 限 怕 


DT 基础 上 ， 提 出 了 CVFDT08， 


据 流 中 概念 漂移 的 问题 。 


类 模型 
的 数据 流 情 况 下 


Zo y 


^ H 


练 数据 分 成 不 同 的 i 
j 某 种 学 习 算 法 对 子 集 上 的 数据 进行 
就 在 对 应 的 子 集 生成 一 个 基 学 习 器 ( 基 
j 某 种 组 合 方式 ， 将 多 个 基 学习 器 组 合成 引 
) 。 集 成 分 类 器 在 预测 实例 的 类 标签 时 ， 


策 树 和 使 用 不 满足 hoeffding 边界 的 大 量 数据 


E, Al 


准确 性 ， 学习 器 不 太 坏 ; 还 有 要 


现 了 如 下 两 币 


i 


有 差异 性 。 要 想 获 得 7 
中 的 基 分 类 器 彼此 间 有 一 定 
训练 数据 不 同 ， 甚 至 使 
考虑 二 元 分 类 问题 ,ye {-1,+1} 和 真实 


中 解决 思路 。 


器 的 错误 率 为 < ， 对 每 个 基 分 类 器 hi Al! 


假设 通过 简单 多 数 投票 法 结合 


分 类 器 正确 ， 


P(h,(x)# f(x) =e 


则 集成 分 类 正确 性 : 


ix) =sien (Sh (9) | 


7 个 分 类 器 ， 超 过 半数 的 


许多 集成 算法 还 是 保 
分 类 性 能 还 是 比较 突 
目的 是 为 了 解决 数 


IE 


以 


这 个 问 


要 获得 
而 不 同 ， 即 个 体 学 习 器 要 有 一 定 的 
{ZREVE (diversity) ， 即 学 习 
佳 确 率 的 提升 ,必须 要 使 
的 相 异 度 。 这 可 以 通过 让 基 分 类 器 
不 同 的 基 分 类 器 算法 来 实现 。 
函数 1， 假 设 基 分 类 


成 分 类 器 


假设 基 分 类 的 错误 率 相互 独立 ， 则 
集成 的 错误 率 & : 


| T 


2l 
k-0 


J 


RT SEXTA, 


P(H(x)s f(x))= (cf) e er sex( ra - 22) 
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上 述 不 等 式 明确 表明 : 随 着 集成 模型 基 分 类 器 个 数 了 的 增 
加 ， 集 成 模型 的 错误 率 呈 现 指数 级 的 下 降 ， 最 终 趋 近 于 0. f 


成 学 习 就 是 把 所 有 个 体 学 习 器 的 结果 做 简 和 


RAUB, XA 


lL 就 和 
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获得 比 个 体 学 习 器 更 好 的 泛 化 性 能 。 这 样 说 需要 满足 一 个 关键 
假设 : 基 学 习 器 的 误差 相互 独立 。 但 是 在 现实 任务 中 ， 个 体 学 


习 器 是 为 解决 同一 问题 训练 出 来 的 ,它们 显然 不 可 能 相互 独立 。 
事实 上， 个 体 学 习 器 的 准确 性 和 多 样 性 本 身 就 存在 冲突 。 一 般 
的 ， 准 确 性 很 高 之 后 ， 要 增加 多 样 性 就 要 牺牲 准确 性 。 
2 ”集成 分 类 器 中 的 概念 漂移 问题 
2.1 概念 漂移 的 定义 

在 进行 流 数 据 挖掘 任务 的 时 ， 目 标 概 念 会 随 着 时 间 和 周 目 


巨变 。 不 变 的 概念 也 会 发 生 巨变 。 例 如 用 户 
个 人 喜好 变化 的 影响 而 


环境 的 变化 而 发 生 
浏览 网 站 的 倾向 会 受到 实时 热点 新 闻 ， 


改变 。 定 义 这 种 目标 概念 随 着 非 确定 性 因素 而 发 生 改 变 的 现象 
称 作 概 念 漂移 。 一 种 关于 概念 经 典 的 定义 中 ， 将 概念 定义 成 一 
组 对 象 的 集合 。 但 是 这 个 概念 的 定义 并 不 能 用 于 流 数据 。 目 前 
大 多 数 关于 概念 漂移 的 文献 都 是 采用 先 验 概 率 ， 条 件 概率 ， 后 
伶 概率 来 定义 概念 漂移 的 。 文 献上 分 析 了 概念 漂移 发 生 的 三 种 
形式 : 


a) 类 的 先 验 概率 Pfc) 会 随 着 时 间 的 改变 而 改变 。 
b) 一 个 类 或 者 几 个 类 的 条 件 概 率 P(X|C),，i=12,3,.…m 


可 能 会 随 着 时 间 的 推移 而 发 生 改 变 。 

O) 后 验 概 率 P(CG|X)，i=1,2,3,…,m 的 改变 被 认为 是 真正 
的 概念 漂移 ， 即 同一 个 实例 在 不 同 的 时 间 域 中 ， 有 具有 不 同 的 类 
标签 。 


2.2 概念 漂移 的 类 型 
根据 类 标号 的 先 验 概 率 ， 条 件 概率 和 后 验 概率 。 概 念 漂移 


jd 


因此 ， 它 不 应 该 直接 影响 所 使 用 
决策 边界 (或 后 验 概率 ) 有 影响 
数 。 这 种 类 型 的 变化 可 能 会 ， 明 显 
述 了 两 种 类 型 的 漂移 中 2。 
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(a) 初 始 数据 分 布 OPERELE 


(a)Initial data distribution (b) False concept drift 


的 类 型 主要 分 为 虚假 概念 漂移 和 真实 概念 漂移 PI。 前 一 类 概念 


漂移 不 影响 决策 边界 (后 验 概率 ), 但 影响 条 件 概率 密度 函数 。 
的 分 类 器 。 后 一 类 概念 漂移 对 
可 能 影响 条 件 概 率 密 度 函 
影响 分 类 器 的 性 能 。 图 1 描 


O 
O 
OO 49 
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(c) 真 实 概念 漂移 


(c)Real concept drift 


图 1 概念 漂移 两 种 类 型 的 不 同 边界 


Fig.l Concept drifts two types of different boundaries 
2.3 ”概念 漂移 的 处 理 技术 
前 处 理 概念 漂移 的 方式 有 许多 种 ， 包 括 滑动 窗口 模型 ， 
念 漂移 检测 器 ， 集 成 学 习 模 型 ， 在 线 学 习 者 等 请。 

a) 滑 动 窗口 。 滑 动 窗口 技术 主要 是 保留 了 一 个 缓冲 区 ， 在 
缓冲 区 中 最 新 的 实例 认为 是 最 能 体现 当前 数据 流 中 数据 的 分 布 
状态 。 它 们 用 于 训练 和 更 新 模型 。 并 且 一 旦 新 的 实例 到 达 ， 之 
前 的 实例 就 被 丢弃 。 通 过 储存 最 新 的 状态 来 更 新 实时 的 数据 流 。 
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滑动 窗口 提供 了 一 种 只 分 析 数 据 流 中 最 新 数据 元 组 的 途径 。 这 ” 则 可 以 根据 输入 特征 域 选 择 基础 学 习 器 ;使 用 处 理 离 散 和 处 理 
种 技术 只 考虑 当前 窗口 内 的 数据 ,并 不 需要 对 数据 随机 抽样 也 ”连续 特征 的 基础 学 习 器 。 例 如 广泛 使 用 的 Hoeffding tree。 因 为 
不 保留 过 时 数据 的 统计 信息 P6217。 代表 算法 有 ADWIN ” Hoeffding 边界 确定 仅仅 需要 少量 的 数据 就 可 以 训练 出 和 全 部 


BaggingP5!fll Leveraging BaggingP?, ADWIN2, SERDRIFT®°3, ”训练 数据 的 近似 ， 并 且 在 实验 中 有 着 良好 的 分 类 性 能 。 用 
ECISD[32, Hoeffding tree 当做 基准 算法 的 有 : ASHT、HWT[55]、AWT- 
b) 概 念 漂移 检测 器 。 它 们 可 以 被 视 为 与 给 定 分 类 器 结合 的 ADWIN59。 在 处 理 数据 流 的 问题 中 ，CVFDT 是 可 以 处 理 概念 


外 部 算法 。 它 们 的 目的 是 监视 数据 流 的 特定 属性 ， 例 如 标准 偏 “漂移 的 一 种 快速 决策 树 基 准 算法 ， 例 CVFDT Update 

差 51， 预 测 误差 5 或 实例 分 布 B3。 假 设 这 些 特征 的 任何 变化 都 ”Ensemble(CUE)E7 算 法 。 通 常用 于 集合 流 学 习 的 其 他 基础 学 习 

是 由 漂移 存在 引起 的 。 因 此 ， 通 过 测量 变化 水 平 ， 探 测 器 能 够 ”者 包括 朴素 贝 叶 斯 ， 支 持 向 量 机 ， 和 多 层 感知 机 等 等 。 

检测 报告 进入 的 水 平 变化 。 代 表 算 法 DDMP9, EDDMP", 集成 分 类 模型 分 成 基 分 类 器 的 组 合 和 模型 的 动态 更 新 两 个 
0) 在 线 学 习 者 。 按 照 在 线 处 理 实例 的 方式 更 新 模型 ， 从 而 部分。 

在 流 发 生 时 尽快 调整 流 。 这 样 的 学 习 者 必须 满足 一 系列 要 求 E4: 31 基 分 类 器 的 组 合 


= 


每 个 对 象 在 训练 过 程 中 必须 只 处 理 一 次 ， 处 理 每 个 实例 的 计算 集合 成 员 整 体 的 预测 要 比 单个 分 类 器 预测 的 性 能 高 ， 本 文 
复杂 性 必须 尽 可 能 小 ， 并 且 其 准确 性 不 应 低 于 在 批量 数据 上 训 寻求 一 种 适当 的 方法 来 组 合 这 些 基 分 类 器 。 目 的 是 为 了 能 更 好 
练 的 分 类 器 。 代 表 算 法 有 CUSUME9IFIMTDDIO 。 的 区 分 那些 较 难 辨别 的 类 。 从 前 学 者 们 致力 于 研发 精度 更 准确 
dd) 集成 学 习 者 。 使 用 组 合 方式 的 集成 学 习 者 因为 具有 多 样 ” ”的 单 分 类 模型 ， 从 没有 研究 过 分 类 器 组 合 的 预测 SI。 在 组 合 的 

ij 


性 和 复杂 的 结构 ， 每 个 单 分 类 器 都 有 良好 的 性 能 ， 它 们 可 以 轻 ”方式 中 ， 用 至 
松 适应 流 的 变化 ， 提 供 灵活 性 和 预测 能 力 的 增益 中 I。 两 种 主要 ”3.1.1 投票 法 


的 最 多 的 是 投票 法 和 固定 基 分 类 器 的 集合 。 


方法 假设 一 个 变化 的 集合 中 1 或 更 新 基 分 类 器 由]。 新 分 类 器 正在 投票 法 是 在 集成 模型 预测 时 ， 如 何 选择 单个 分 类 器 的 输出 

训练 最 近 到 达 的 数据 (通常 以 块 的 形式 收集 〉 并 添加 到 集成 模 ”结果 的 方法 。 目 前 主要 的 投票 法 分 为 多 数 投票 法 、 加 权 投 票 法 

型 中 。 修 剪 用 于 控制 基本 分 类 器 的 数量 并 删除 性 能 最 差 或 最 | 和 其 他 投票 法 。 

的 模型 。 代 表 算 法 有 DWM, AWE], SEAMS, EB, a) 多 数 投票 法 。 多 数 投票 法 是 初始 化 全 部 基 分 类 器 相同 的 

OCBOOST!*!, OAUEP?I 权重 ， 在 进行 最 终 预 测 时 ， 若 某 标 记 的 基 分 类 器 得 票 超 过 半数 
6) 其 他 技术 。 在 文献 [50] 中 , 作者 利用 Kappa 系数 的 范围 来 ”或 者 自 定义 得 票 最 多 的 基 分 类 器 被 认定 为 最 后 的 预测 。 若 同时 


进行 检测 ， 作 者 认为 Kappa 系数 为 65% 是 可 接受 的 和 谐 。 当 每 有 多 个 得 票 最 高 的 基 分 类 器 ， 那 么 从 它们 中 随机 选取 一 个 。 使 
个 输入 包 的 最 后 100 个 样本 的 Kappa 系数 小 于 65% 时 , 所 提出 多 数 投票 的 数据 流 集成 分 类 算法 包括 : online Bagging and 
的 方法 将 分 类 过 程 称 为 “随机 ”。 发 生 这 种 情况 时 ， 会 蔡 换 加 权 boosting, MOSOBP?I*, OOB U UOB, ERRARE 
函数 并 丢弃 不 良 分 类 器 。 代 表 算 法 文献 E04、ASHT5GD。 思想 是 数据 不 是 基于 块 状 到 达 的 ， 而 是 数据 流 中 的 实例 一 个 一 
MS 个 单独 到 达 的 ， 学 习 算法 在 线 处 理 每 个 单独 实例 。 当 数据 量 NN 
T EMAR 趋 近 于 无 穷 ， 将 满足 泊 松 为 1 的 分 布 。 
集成 分 类 学 习 是 通过 集成 多 个 基 分 类 器 共同 决策 的 机 器 学 b) 加 权 投 票 法 。 由 于 各 个 基 分 类 器 性 能 的 差异 ,因此 根据 
习 技术 ， 通 过 调用 简单 或 者 复杂 的 增 量 学 习 算 法 ， 获 得 多 个 性 。” 和 集 分 类 器 的 表现 对 基 分 类 器 进行 加 权 。 从 而 着 重 看 待 那 些 分 类 
能 好 而 不 同 的 基 分 类 器 ， 然 后 采用 某 种 结合 方式 将 全 部 基 分 类 ”性 能 好 的 基 分 类 器 ， 以 便 在 整体 预测 中 ， 能 输出 正确 结果 。 
器 组 合成 一 个 集成 分 类 器 。 在 1.3.2 节 介 绍 了 集成 的 理论 和 发 简单 一 点 的 加 权 就 是 根据 分 类 器 的 准确 性 。 例 如 
展 方向 ， 因 此 如 何 产生 并 结合 好 而 不 同 的 个 体 学 习 器 ， 就 是 旨 AWE(accuracy weighted classification), AWE 算法 是 面向 数据 流 
成 学 习 研究 的 核心 ， 怎 么 集成 ? 集成 什么 样 的 个 体 学 习 器 ? 55 的 基准 算法 ,AWE 根据 基 分 类 器 的 均 方 误差 ， 分 配 反比 其 均 方 
据 个 体 学 习 器 的 生成 方式 ， 目 前 的 集成 学 习 方法 大 致 可 分 为 两 = 误差 的 权 值 ， 采 用 多 折 交 又 的 方法 计算 权 值 ， 权 值 大 的 蔡 换 权 
KARMA: a) 个 体 学 习 器 间 存 在 强 依赖 关系 、 必 须 串 行 生成 的 序 。” 值 小 的 基 分 类 器 进行 模型 更 新 。Weighted majority (WM) 和 
列 化 方法 , 代表 是 Boosting53]: b) 个 体 学 习 器 间 不 存在 强 依赖 matrix multiplicative weights(MMVWJ)[6 算 法 ，WM 根据 过 去 的 表 
关系 、 可 同时 生成 的 并 行 化 方法 ， 代 表 是 Bagging AMPER — 现 对 分 类 器 的 预测 进行 加 权 , 这 样 每 个 分 类 器 都 有 一 个 权重 p, 
林 (Random Forest) 54, 每 当 不 正确 地 预测 时 8 就 会 减少 。Accuracy Update 
对 集成 学 习 者 来 讲 , 处 理 不 同 的 问题 需要 不 同 的 基准 算法 ， ”Ensemble(AUE) 计 算 最 新 数据 块 上 的 分 类 器 和 集成 中 全 部 的 基 
虽然 问题 的 本 质 上 都 是 为 了 追求 良好 的 分 类 性 能 ， 但 是 根据 分 。 分 类 器 对 最 新 数据 块 分 类 的 误差 对比 性 能 。 若 集成 模型 中 某 
类 的 具体 问题 选择 合适 的 基础 学 习 者 是 获得 准确 集成 分 类 器 的 个 基 分 类 器 的 误差 比 在 最 新 数据 块 上 的 基 分 类 器 的 误差 大 ， 
必要 前 提 。 分 类 器 通常 可 以 自然 地 仅 处 理 一 种 类 型 的 特征 域 而 那么 替换 最 差 的 基 分 类 器 。 
无 须 求 助 于 输入 的 预 处 理 。 因 此 , 假设 所 有 特征 具有 相同 的 域 ， 复杂 一 点 的 加 权 online accuracy update ensemble (OAUE) 算 
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MES,» MSE, 的 基 分 类 器 , 作者 基于 这 样 
数据 块 中 的 实例 
大 于 MSE, 


oe AH 
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基 分 类 器 的 ] 


法 和 传统 的 基 
在 AUE 加 权 公 式 中 ， 
曾 量力 
VFDT 作为 


基 分 类 器 对 最 新 
多 方 误差 MES, 
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于 块 的 方式 不 同 , 它 是 基于 块 和 增 量 的 学 习 算法 。 


引入 了 时 间 的 概念 , 把 加 权 公式 变 为 随 着 


0 权 表 达 式 。CVFDT update ensemble(CUE) 使 
1 练 基 分 类 器 的 算法 ,在 模型 更 新 的 过 程 中 , 选择 


的 想法 : MSE, 表示 任 
随机 猜测 的 误差 ， 如 果 
, 说 明基 分 类 器 C, 的 准确 


献 的 ， 需 要 


j 最 新 数 ] 


生还 低 ， 这 样 的 基 


分 类 器 对 模型 是 没有 页 


昌 块 的 数据 更 


间 的 相 异 


Fir. sp 
训练 数据 
TRE. 


处 理 


data stream(ECISD) 算 法 使 用 
是 类 不 平衡 全 


-links 欠 采 样 相 结 合 


加 权 上 ， 引 入 了 代价 的 概念 。 


度 ， 在 最 新 数 ] 


AUE2 


的 方法 对 原 数 


新 这 些 基 分 类 器 ,为 了 增加 基 
居 块 对 基 分 类 器 进行 更 新 的 过 
居 块 中 的 数据 采用 bagging 操作 ， 由 于 基 分 类 器 的 
很 大 程度 上 不 同 ， 因 此 增加 了 


基 分 类 器 彼此 之 间 的 相 


类 不 平衡 的 加 权 ensemble classifiers for imbalanced 


[6 算法 作为 基准 算法 ， 医 


为 


成 分 类 算法 ， 首 先 采 用 SMOTE 过 采样 和 Tomek 


据 进 行 采样 ， 在 基 分 类 器 的 


模型 更 新 过 程 中 是 利用 基 分 类 器 


对 模型 准确 率 的 贡献 来 淘汰 性 能 最 差 的 基 分 类 器 。 
其 他 加 权 算 法 主要 还 有 adaptive classifiers-ensemble 


(ACE) 


差 来 分 配 基 分 类 器 得 权重 。 


MSE; = — 


52: PAC 4e) 


weighted ensemble online bagging (WEOB) 64, 
(EGE CUE,AUE, WM,AWE,ECISD,AUE2 都 是 采用 均 方 误 


其 均 方 


误差 表达 式 为 


随机 分 类 器 得 均 方 误差 表达 式 为 
MSE, = V p( y) -p(y)) 


在 CUE,AWE,WM 算法 


在 ECISD 算法 


中 基 分 类 器 权重 为 
1 
MSFE € 


在 AUE,AUE2 算法 中 基 分 类 器 权重 为 


= MSE, - MSE 
FPF 基 分 类 器 权重 为 
1 
W; z 
~ Ct, + MSE; + MSE, +a 


其 中 Ct; 是 基 分 类 器 C; 在 数据 块 B; 上 误 分 类 的 总 代价 为 
Ct, = 人 PRÈS, y(x): jo 


IB] 


概念 : 


a) MSE! = MSE + 


在 算法 OAUE 中 基 分 类 器 均 方 误差 表达 式 加 入 了 时 间 的 


b) MSE; = dE 
t- 


1 qo, MSE 1 


l<t-—1,<d 
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c) MSE’ =0 t-r,=0 


其 中 : 


新 的 一 种 投票 方式 ， 在 投票 阶段 ， 并 不 是 全 部 的 
个 弃权 闵 值 ， 闵 值 为 0.65。 即 如 果 基 分 
确 性 低 于 0.65， 那 么 在 决策 阶段 就 不 参与 投票 ， 
分 类 器 参与 投票 。 
MZ BEE, DWM 维 


参与 投票 ， 而 是 设 定 
类 器 的 准 
xd 
majority(DWM) 即 动态 加 


Chi 


je] 


naXiv 合 人 


aD? 


MSE! = MSE! -r (y)- r^! (x) t+r(y)+r (> 一 ) t>d 


MSE! 


r (y)2 p (y)- 


i 


-Jy 


(y) tad 


p) 


1 


NW, = 
MSE! 


+ MSE; +€ 


c) 其 他 投票 法 。 考 虑 到 多 数 投票 的 缺陷 , 作者 [5 提出 了 最 


于 0.65 的 基 


基 分 类 器 全 部 


Dynamic weighted 
护 可 变数 量 的 基 


分 类 器 。 集 成 模型 预测 由 加 权 多 数 票 决定 。 每 个 分 类 器 的 权重 


在 每 次 正确 预测 


时 都 会 增加 ， 


贝 


低 于 给 定 阔 值 , 则 从 集合 
则 添加 新 


n 


否则 会 减少 。 


如 果 分 类 器 的 权重 
FP 移 除 分 类 器 。 如 果 集 合 决策 不 正确 ， 


专家 。 由 于 这 种 集合 


少 


数 集成 算法 ， 其 中 模型 权重 使 ) 


过 多 的 添加 和 册 


除 ， 
> 个 实例 中 进行 整体 更 新 。 
Modal mixture model(M3)l96 


更 新 策略 可 以 为 噪声 数据 流产 生 
因此 作者 引入 了 一 个 参数 B 来 确定 将 在 多 


是 基于 异 构 模 型 


e i) 
调整 整体 成 员 的 权重 。 当 数 


198455 


j 基 分 类 器 的 混合 ， 


它们 最 初 
可 以 选 


y 


模型 相 混合 ) ， 


ZEN 


择 每 个 数据 点 


习 技 术 在 线 更 新 。 
通过 强化 学 习 借鉴 概念 的 在 线 方法 


4 类 型 的 加 权 多 


因为 


虽 流 中 的 数据 点 进入 应 ) 
昌 作 测试 数据 以 评估 实验 报告 的 整体 算法 。 
(通过 均匀 随机 


选择 ) 以 | 


1 练 数据 点 用 于 单独 训 


练 每 个 基 


分 类 器 CVFDT F 


并 使 用 简化 的 


的 权重 。 
Droplets ensemble algorithm(DEA) 152 37: , 这 是 一 种 全 新 的 


地 保 


iE 


程序 时 ， 
接 下 来 ， 
练 数据 。 
中 朴素 Dut 


| 练 准确 性 来 更 新 


每 个 基 分 类 器 


{Dins 


类 。 


HU x, 相关 联 。 并 保持 和 
到 与 BL 相关 联 的 
N * Droplets 的 预测 
最 小 化 这 个 和 ， 那 么 


Droplet 本 质 就 是 一 个 多 维 


特征 空 


H 
最 新 的 特征 子 
误差 相 
它 与 最 新 


n] BL 的 指针 。 首 多 


E, 每 一 个 Droplet 


成 学 习 算 法 ， 在 2016 年 ICDM 上 获得 最 佳 论文 奖 。 它 动态 
F n^ BL (base learner) ( E = fi... 
概念 相关 的 p 个 Droplet (MAP 
任何 基础 算法 ， 只 要 他 们 能 在 具有 


下 ) 的 集合 以 及 与 当前 
D,}) 集合 。 
念 漂移 的 数据 流 上 


BL 可 以 是 
J 分 


— 


3t 


ft D, 


CAS OC E 


Z 


fa] D, ,通过 对 每 个 BL 在 最 近 
加 来 完成 的 。 如 果 唯 一 的 BL 单独 
的 Droplets FAK; FU CRA 


少 2 个 BL 最 小 化 预测 误差 的 总 和 ) ， 搜 索 空 间 依次 扩展 为 N 
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+ 7;N+2;N+3;::: 离 Droplets 最 近 ， 直 到 找到 一 个 最 好 BL. 近 添 加 的 分 类 器 。 在 投票 期 间 ， 分 类 器 的 权重 与 给 定 的 中 心 度 
然后 将 新 的 Droplet D, 添加 到 Wi 化 标 处 的 特征 空间 中 。 存储。 量 a 成 正比 ， 例 如， 特征 向 量 ， 中 介 。 由 于 高 度 准 确 的 基 
预测 误差 的 矢量 e+1 并 创建 指向 上 一 步 中 找到 的 最 佳 BL 的 ” 分 类 器 通常 需要 接收 大 多 数 连接 ， B EUER. 
iif. MAURGAGUESTREISUSÜ Droplet OD, 的 集合 ， 如 果 它 不 ” 策 具有 更 高 的 影响 。 在 social adaptive ensemble (SEA) 50 和 
是 空 的 ， 它 减少 了 在 OD, 中 输出 错误 预测 的 Droplet 的 影响 。 advances on the social adaptive ensemble(SAE2) [7 中， 每 对 学 习 
这 是 通过 缩小 它们 的 半径 来 完成 的 ， 这 将 使 它们 不 太 可 能 预测 。 者 根据 相似 性 函数 进行 连接 和 加 权 。 由 所 有 这 些 连 接 形成 的 加 
在 特征 空间 的 该 区 域 中 接收 的 未 来 观察 。 如 果 内 存 已 满 ， 算 法 权 网 络 在 每 个 周期 更 新 ， 以 更 好 地 近似 学 习 者 的 当前 状态 。 在 
使 用 3 个 不 同 的 标准 来 选择 将 被 删除 的 Droplet: 预测 期 间 使 用 该 网 络 布置 ， 其 中 首先 在 类 似 分 类 器 的 子 集 内 组 
1. 移 除 半径 最 小 的 Droplet。2. 如 果 所 有 Droplet 具有 相同 的 。” 合 各 个 决策 ， 然 后 组 合 这 些 子 集 决 策 以 获得 最 终 预 测 。 
半径 ， 则 移 除 已 输出 最 大 错误 预测 数 的 Droplet。3. 如 果 标 准 1. 为 了 更 方便 地 分 析 算 法 性 能 和 优 缺 点 ， 在 表 1 中 详细 介绍 
和 2. 失败， 请 删除 最 旧 的 Droplet. 了 算法 的 数据 集 、 对 比 算法 和 优 缺 点 。 总 体 来 说 AWE 是 面向 
3.1.2 固定 集合 体系 结构 数据 流 集成 分 类 器 的 最 经 典 的 算法 ， 它 开创 了 一 个 时 代 随 后 出 
固定 集合 体系 结构 定义 了 基 分 类 器 如 何 相互 协调 和 工作 。 现 的 许多 算法 都 是 基于 AWE 的 加 权 思 想 ， 但 是 早期 的 算法 性 
大 体 上 有 三 种 不 同 的 体系 结构 ， 线 性 和 非 线性 组 合 〈 例 如 加 权 ”能 并 不 突出 ,对 概念 漂移 的 处 理 效果 不 明显 。 目 前 性 能 较 好 的 ， 
投票 ) ， 级 联 和 网 络 。 级 联 是 一 种 分 类 器 的 输出 包含 了 多 个 分 。” 且 在 实践 中 可 以 应 用 到 多 个 场景 的 算法 大 臻 有 以 下 几 种 : 
类 器 的 输入 的 框架 (例如 stacking) 。 网 络 是 一 种 分 层 的 框架 ， AUE2、DEA、SEA2、WEOB1、WEOB2。 
将 成 员 排列 成 树 状 结构 的 集合 或 网 络 的 集合 。 将 给 定 的 集合 结 3.2 模型 动态 更 新 
构 分 类 为 : 简单 的 线性 组 合 、 元 学 习 器 和 分 层 的 树 状 结构 。 集成 分 类 算法 另 一 个 重要 的 部 分 就 是 如 何 对 集成 模型 进行 
a) 线 性 和 非 线性 组 合 。 基 分 类 器 在 输入 数据 上 进行 训练 ， 更 新 ， 本 文 当然 希望 留 下 能 够 适应 当前 数据 分 布 的 基 分 类 器 ， 
决策 融合 阶段 由 组 合 函 数 进 行 投票 。 主 要 的 算法 有 online ”删除 性 能 较 差 或 者 较 旧 的 基 分 类 器 ， 因 此 在 进行 数据 流 分 类 任 
accuracy update ensemble(OAUE)、 online Bagging and boosting、 务 时 ， 从 数据 流 中 学 习 需 要 的 算法 不 仅仅 是 要 求 精度 ， 还 要 有 
Leveraging Bagging, 在 文献 [68] 中 提出 了 基于 线性 和 非 线性 的 ”快速 适应 环境 和 恢复 环境 的 能 力 。 对 概念 漂移 的 适应 性 和 恢复 
加 权 组 合 ， 首 先 将 数据 流 分 成 数据 块 ， 在 每 个 数据 块 上 训练 基 ”性 是 对 分 类 器 性 能 的 一 个 重要 评价 。 所 以 动态 更 新 集成 分 类 器 
分 类 器 , 所 提 方 法 中 的 加 权 过 程 是 在 基本 分 类 器 上 进行 的 ; 当 在 。” ”就 是 重 中 之 重 。 
不 同 条 件 下 添加 输入 数据 时 ， 使 用 一 个 线性 函数 和 一 个 非 线 性 3.2.1 增 量 模型 
函数 。 当 概念 是 静止 时 ， 非 线性 函数 更 有 效 ， 而 当 输 入 数据 的 在 22 中 介绍 了 数据 流 中 增 量 学 习 的 两 种 方式 。 因 此 ， 在 
波动 值得 注意 时 ， 线 性 函数 是 优选 的 。 另 一 方面 ， 没 有 漂移 的 这 节 主 要 介绍 典型 的 增 量 集成 算法 ， 并 且 比 较 了 增 量 模型 和 批 
非 线性 函数 使 分 类 器 免 受 噪声 和 无 关 数 据 的 影响 。 其 中 权 值 分 。 处 理 〈( 基 于 数据 块 ) 算法 。 批 学 习 者 在 使 用 数据 流 中 的 实例 进 
配 用 的 是 平均 绝对 误差 MAE. 行 训练 之 前 ， 必 须 需 要 储存 一 批 的 实例 ， 把 数据 流 分 成 不 同 的 
Mais es) 数据 块 ， 然 后 在 每 个 数据 块 上 进行 训练 。 每 当 最 新 的 数据 块 到 
nia 达 时 ， 用 这 个 最 新 的 数据 块 对 集成 模型 进行 更 新 ， 通 常 更 新 的 
线性 加 权 函 数 : — Wrinear =max{MAE, - MAE, ,2} 一 般 策略 是 比较 候选 分 类 器 和 集成 模型 中 全 部 基 分 类 器 的 性 能 
非 线 性 加 权 函 数 ， Wj ST E - 4l) li T ids 
r (TE 删除 性 能 最 差 的 基 分 类 器 。 增 量 学 习 者 在 实例 到 达 时 对 实例 逐 
b) 元 学 习 器 。 当 训练 数据 非常 庞大 时 ， 元 学 习 被 称 作 是 更 。 个 进行 训练 ， 通 常 来 讲 增 量 学 习 者 在 应 用 于 呈现 逐渐 或 渐进 漂 
强大 的 组 合 策略 。 元 学 习 器 是 通过 另 一 个 学 习 器 来 进行 结合 。 移 的 流 或 与 漂移 探测 器 结合 使 用 时 更 有 效 。 在 突然 漂移 的 情况 
个 体 学 习 器 称 为 初级 学 习 器 ， 用 于 结合 的 学 习 器 称 为 次 级 或 元 下 ， 增 量 学 习 器 (没有 漂移 探测 器 的 帮助 ) 可 能 需要 更 长 的 时 
级 学 习 器 。 经 典 的 代表 就 是 Combining Restricted Hoeffding — 间 来 恢复 ， 因 为 这 种 模型 受到 先前 提出 的 概念 影响 ， 而 批量 学 
Trees using Stacking[69]， 算 法 是 利用 列 属性 子 集 来 构建 一 组 习 器 则 完全 丢弃 其 先前 的 模型 。 由 于 数据 流 的 特点 ， 所 以 增 量 


hoeffding tree， 然 后 利 
sigmoid 感知 器 的 学 习 速 率 ， 


ADWIN 重 


] 数据 流 的 ADWIN 监测 机 制 设置 
当 感 知 器 分 类 性 能 不 佳 时 ， 使 用 


集合 成 员 。 
9) 分 层 结构 。 在 该 结构 中 , 集合 


成 员 被 表示 为 网 络 的 顶点 ， 


其 连接 根据 特定 标准 
模型 生成 ， 使 得 具有 较 高 估计 准 


确定 。 分 类 器 之 间 的 连接 根据 无 标 度 网 络 
确 度 的 分 类 器 更 可 能 连接 到 最 


种 非常 典型 的 增 量 
在 Learnl 


终 的 预测 。 


EA AE 


学 习 算法 是 数据 流 分 类 中 必 不 可 少 的 一 部 分 。Learn++ 算 法 


AS 


成 算法 ， 


rd 
[5 REAR 


同 需求 出 现 了 以 下 几 种 算法 : 


算法 的 基础 上 ， 


Learn 


是 采用 加 权 投 票 的 方式 进 
根据 解决 实际 问题 
++.MT, Learn++.MT2, 


Learn++.NSE, Learn++.SMOTE 等 。 增 量 学 习 者 的 例子 还 


贝 叶 


HORKA ARA, E 


归 树 等 275, 


六 一 上 


ITR 
页 的 不 


:包括 
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表 1 算法 性 能 比较 
Table 1 Algorithm performance comparison 
算法 实验 数据 集 对 比 算法 优 缺 点 
NT 缺点 : MOSOB 中 的 搜索 技术 是 一 种 蛮 力 方法 , 在 一 组 有 限 的 候选 者 中 寻找 最 优 。 耗 时 较 长 ， 时 
Gearbox、 Smart Building、 加 
OOB、UOB、RLSACP、WOS- 间 复 杂 度 较 高 并 且 只 适用 于 二 元 类 不 平衡 问题 
MOSOB PAKDD 
二 is ELM 优点 : 使 用 决策 树 基 类 分 类 器 的 MOSOB 是 最 稳定 和 最 准确 的 模型 ， 在 静态 情况 下 ， 在 G 均值 
lINemo、 
和 少数 类 召回 方面 优 于 OOB， 并 且 比 UOB 更 能 抵抗 类 不 平衡 变化 
缺点 ， 只 适用 于 二 元 类 不 平衡 问题 ， 没 有 考虑 多 元 ， 没 有 概念 漂移 检测 的 机 制 
OOB and Gearbox. Smart Building, . ET ND 
. MOSOB, RLSACP,WOS-ELM 优点 : 提出 了 新 的 在 线 类 不 平衡 框架 ， 并 且 根据 类 不 平衡 状态 设计 了 两 种 重 采 样 策略 ， 方 法 对 
UOB PAKDD、iNemo、KDD 
少数 群体 的 准确 性 和 整体 表现 都 有 效 
Ensemble Naive Bayesian 
. 缺点 : 早期 最 经 典 的 算法 ， 只 能 适应 潜在 的 概念 漂移 和 少量 数据 
AWE Credit Card Fraud Data Ensemble RIPPER, Ensemble 
优点 : 提出 了 分 类 器 集成 方法 新 的 解决 路 径 ， 比 单 分 类 器 提供 了 更 准确 的 性 能 
Decision Tree 
AWE, ACED, DDM, RF, Wi: 没有 考虑 基 分 类 器 的 多 样 性 对 集成 模型 的 影响 
Airlines, PAKDD, Poker, J 
OAUE > W, RBF 优点 : 全 部 对 比 的 算法 中 ， 内 存 消耗 是 少 的 ， 并 且 提 出 线性 函数 在 快速 漂移 流 上 表现 更 好 ， 但 
‘ower, ave 
LED 非 线性 函数 对 噪声 更 强 
缺点 ， 需要 较 长 恒定 的 处 理 时 间 和 内 存 。 对 概念 漂移 的 发 生 不 具备 良好 的 恢复 性 和 适应 性 ， 并 
AUE ELEC. OZONE. DON HOT. AWE, AUE, HT-WIN 没有 增 量 的 学 习 算 法 
优点 : 只 是 比 AWE 更 准确 
HYP, RBF, SEA, TREE, ACE, AUEI, AWE, HOT, “ii: : 并 没有 全 部 采用 增 量 学 习 方 式 
AUE2 LED、ELEC、COV、 DDM, WIN, LEV, NB, 优点 : AUE2 可 以 适用 于 涉及 多 种 漂移 和 静态 环境 的 场景 。 AUE2 提供 了 最 佳 的 平均 分 类 精度 ， 
POKER、 Airlines OZA. DWM, NSE 同时 证 明 比 其 他 整体 方法 消耗 更 少 的 内 存 
缺点 : CUE 算法 的 训练 时 间 很 长 ， 而 且 在 相同 数据 集 上 测试 的 时 间 一 致 
CUE Forest COV、 Waveform AWE 
优点 : 准确 率 和 对 概念 漂移 的 适应 程度 要 比 AWE 优 
缺点 : 实验 对 比 参数 只 有 G-mean, 虽 然 在 和 其 他 三 个 算法 相 比 ，G-mean 只 是 大 体 上 呈现 上 升 趋 
垃圾 邮件 数据 集 、SEA、 . 
ECISD iind VFDT. AUE2, Learn, NSE 势 ， 需 要 加 入 更 多 的 参数 来 分 析 算 法 性 能 
优点 : 可 处 理 类 不 平衡 的 数据 流 
缺点 : 概念 漂移 的 恢复 时 间 较 长 
DWM SEA DWM-ITI、DWM-NB 
优点 : DWM 保持 了 相当 数量 的 专家 , 但 实现 了 更 高 的 预测 准确 度 , 并 更 快 地 收敛 到 这 些 准 确 度 
Benchmark PAMAP2, 缺点 ，M3 算法 在 整体 分 类 精度 方面 排名 第 三 ，M3 算法 通常 仅 比 主导 方法 低 几 个 百分点 
LB、AHOT、HAT、DWM 
M3 KDDCup'99、 . : 优点 : 随 着 训练 数据 量 的 减少 ，M3 方法 开始 占 主 导 地 位 ， 这 表明 当 存 在 有 限 的 训练 数据 时 具有 
TAC( 时 间 增 强 分 类 器 ) ~~ 
Forest Cove 更 高 的 精度 
Rand Tree、 
缺点 ;算法 效率 较 高 
Waveform, ,LED, KDD, SAMKNN, ADACC, DWM, 
DEA 优点 : 在 全 部 的 25 个 数据 集 上 的 表现 ， 准 确 度 都 比 其 他 算法 优秀 ， 精 度 高 ， 而 且 ， 能 完全 适应 
spam、SEA、CHESS、 AUE 等 : 
. 念 漂移 的 变化 ， 提 出 了 一 种 全 新 的 思路 设计 《〈 超 球体 ) 集成 分 类 器 
ELEC、COV、Rialto 等 
RTS、RTC、SEA1、SEA-2、 
DWM, ASHT, Bagging, 缺点 : 如 果 没 有 发 生 概念 漂移 且 数 据 集 较 小 时 ， 精 度 明 显 不 如 其 他 算法 
SEA SEA3、SEA4、AGRAWAL-1 
M ADWIN, Bagging 优点 : 当 数 据 集 包 含 突然 或 逐渐 漂移 并 且 处 理 时 间 受 到 关注 的 问题 时 ，SEA 时 最 好 的 选择 
等 
RTS、RTC、SEA-1、SEA2、 
ADWIN Bagging、ASHT 
SEA3、SEA-4、 缺点 : 网 络 周期 和 训练 时 间 较 长 ， 当 数据 越 多 时 ， 需 要 建立 的 网 络 越 密集 
SEA2 Bagging. Leveraging bagging . " 
AGRAWALI. COV, AN 优点 : 增强 了 启发 式 规 则 ， 在 实验 的 一 些 数 据 集 上 都 达到 了 最 优 的 精度 ， 且 内 存 消耗 是 最 少 的 
ELEC、SPAM、AIRL D 
缺点 : 只 适用 于 少量 属性 的 数据 集 ， 预 选 属性 子 集 和 修剪 技术 还 需要 进一步 完善 
Forest COV、 Poker-Hand、 
CRHTUS MM ADWIN Bagging 优点 : 采用 列 属性 进行 训练 ， 提 出 了 训练 新 的 思路 〈 列 属性 ) ， 并 且 采 用 ADWIN 检测 机 制 ， 能 
ectricr 
d 有 效 的 检测 概念 漂移 
. . 缺点 : 早起 的 学 习 算 法 并 不 能 有 效 的 解决 数据 块 大 小 和 内 存 消耗 的 限制 ，ACE 也 是 如 此 ， 并 且 
recurring context data, which 
ACE WCEA, SEA 没有 实现 修剪 方法 
was showed in FLORA 
优点 : 更 能 抵抗 噪声 和 快速 恢复 各 种 类 型 的 概念 漂移 
缺点 ; 缺少 概念 漂移 的 数据 流 研 究 ， 且 都 依赖 于 计算 实验 数据 而 得 出 的 结论 
Gaussian、Gearbox、Smart 优点 : 改进 了 OOB FI UOB rfi 样 策略 ， 并 研究 了 它们 在 静态 和 动态 数据 流 中 的 性 能 它们 
WEOB RLSACP, WOS-ELM 
Building 在 回忆 和 G- 均 值 方面 实现 了 高 性 能 , 并 且 对 类 不 平衡 状态 的 变化 表现 出 良好 的 稳健 性 。 特别 是 ， 
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3.2.2 滑动 窗口 social adaptive ensemble (SEA) 、advances on the social adaptive 

滑动 窗口 在 某 种 意义 上 类 似 于 地 标 窗 口 ， 它 们 都 定义 了 窗 ensemble (SAE2 ) 、online accuracy update ensemble (OAUE) 
AU n, AEW) 次 只 丢弃 一 个 实例 。 基 于 实例 的 分 ”等 。 许 多 用 于 数据 流 的 集成 分 类 算法 都 组 合 了 标志 性 窗口 和 增 
类 器 p67。 在 多 集成 窗口 中 multi-window based ensemble 量 的 基础 学 习 器 (如 Hoeffding tree) 。 这 种 设计 选择 可 以 允许 
learning(MWEL)D79 定 义 了 三 种 类 型 的 窗口 存储 数据 流 中 的 最 合理 快速 地 适应 突然 漂移 (给 定 小 的 n 值 )， 同 时 它 允 许 集成 
新 的 实例 ,窗口 类 型 包括 最 新 的 实例 窗口 和 一 个 集成 分 类 器 ( 包  ” 成员 的 增 量 更 新 。 固 定 的 地 标 窗口 方法 允许 使 用 传统 的 批量 学 
含 两 个 窗口 ) 。 集 成 分 类 器 是 由 最 新 的 基准 分 类 器 和 用 于 训练 ” 习 算 法 进行 流 学 习 。 在 这 种 情况 下 ， 批 处 理学 习 器 在 窗口 w 的 
的 每 个 基准 分 类 器 组 成 。( 也 就 是 说 ， 集 成 分 类 器 首先 是 由 数 — 实例 上 进行 训练 ， 其 模型 用 于 对 下 一 个 窗口 w + 1 中 的 实例 进 
据 流 中 最 新 的 实例 训练 得 到 的 一 个 子 分 类 器 和 一 个 由 训练 数据 TR. EAO wl 结束 后 ， 在 w 上 学 习 的 模型 被 训练 的 模 
流 中 实例 的 子 分 类 器 组 成 ) 。 这 是 定义 的 三 种 形式 的 窗口 。 在 。” 型 w+ 1 蔡 换 。 如 果 这 种 方法 用 于 使 批量 学 习 器 适应 流 学 习 ， 
预测 新 到 达 实 例 的 所 属 标签 以 前 ， 对 全 部 的 子 分 类 器 进行 加 权 ”那么 可 能 会 出 现 一 些 问题 ， 最 显 着 的 是 : 训练 集中 在 窗口 之 间 
操作 ， 当 且 仅 当 子 分 类 器 的 精度 低 于 定义 的 阔 值 时 才 继续 训练 ”的 过 渡 期 ， 因 此 如 果 新 实例 快速 到 达 ， 则 有 必要 考虑 预测 在 让 
子 分 类 器 。 因 为 如 果 精 度 低 于 或 者 等 于 定义 的 闵 值 ， 那 么 说 明 — 练 新 模型 时 出 现 延 误 ; 批 量 学 习 者 通常 需要 对 大 量 数据 进行 训 
当前 子 分 类 器 的 分 类 性 能 是 和 当前 数据 流 中 的 数据 分 布 背 道 而 ” 练 以 获得 准确 的 模型 ， 因 此 窗口 必须 非常 大 ， 否 则 学 习 模 型 会 


驰 。 很 弱 。 最 后 ， 如 果 发 生 概 念 漂移 ， 则 在 窗口 结束 并 生成 新 模型 
3.2.3 自 适应 窗口 之 前 不 会 考虑 它 ， 因 此 适应 突然 漂移 将 是 缓慢 的 。 尽 管 使 用 固 
自 适应 窗口 模型 可 以 被 视 为 具有 不 同 n 值 的 标志 性 窗口 。 定 地 标 窗 口 的 简单 性 ， 但 难以 定义 地 标尺 寸 参 数 n。 


假设 流 包含 具有 不 同 程度 和 速率 的 漂移 ， 使 用 不 同 大 小 的 窗 本 
是 合适 的 策略 。 问 题 是 如 何 根据 流 的 观察 动态 调整 no 4 ”进一步 的 研究 万 向 

FLORA250 算 法 使 用 启发 式 〈 窗 口 调整 算法 ) 来 增加 或 缩小 窗 虽然 目前 研究 人 员 提 出 了 许多 数据 流 集成 分 类 算法 ， 可 以 
口 大 小 , 这 是 基于 另 一 种 猜测 漂移 是 否 已 经 发 生 的 启发 式 算 法 。 ”解决 大 部 分 分 类 问题 ， 但 是 还 有 很 多 目前 不 能 解决 的 问题 ， 例 
这 种 用 于 调整 窗口 大 小 的 方法 在 实践 中 可 能 是 有 用 的 ， 但 是 它 。 ”如 新 颖 类 别 检 测 ， 多 类 标 检测 等 问题 。 况 且 在 带 有 突变 和 重 现 


取决 于 固定 阔 值 以 通过 “应 该 减少 ”或 “增加 大 小 ”来 定义 。 最 重 概念 漂移 的 情况 下 ， 如 何 能 提高 分 类 器 的 性 能 ， 如 何 让 分 类 器 
要 的 是 , 它 依 赖 于 启发 式 来 确定 当前 概念 是 稳定 还 是 发 生 漂移 。 具有 快速 的 适应 能 力 和 恢复 能 力 都 是 本 文 以 后 研究 的 主要 方向 。 
ADWIN Bagging 和 Leveraging Bagging 。 两 种 算法 都 使 用 a) 首 先 在 新 颖 类 别 检测 上 ， 针 对 可 探测 新 颖 类 别 的 数据 流 
ADWIN (Adaptive Window) 漂移 探测 器 来 选择 性 地 重 置 分 类 集成 分 类 算法 不 能 处 理 混合 属性 且 新 颖 类 别 探测 准确 率 不 高 的 


器 。 具 体 地 ， 在 这 些 算法 中 ， 每 当 其 关联 的 ADWIN 检测 器 发 。 问题 ， 拟 采用 AUE 作为 基准 算法 ， 并 改进 新 颖 类 别 探测 方法 
出 漂移 已 经 发 生 时 ， 就 重 置 分 类 器 。 因 此 ， 整 体 可 能 最 终 得 到 ” 以 处 理 混合 属性 数据 和 提高 新 颖 类 别 的 探测 准确 率 。 根 据 这 样 
具有 对 当前 概念 的 不 同 水 平 的 分 类 器 。ADWIN 算法 的 主要 思 ”的 假设 ， 相 同类 标 实例 的 距离 比 其 他 类 标的 实例 要 远 ， 利 用 空 
Hie: 最 新 窗口 W 的 两 个 子 窗口 Ww ， 妨 可 以 显示 出 明显 的 平 ” 间 所 占 的 属性 比例 来 判断 新 颖 类 标的 存在 范围 ， 因 为 如 果 是 新 
均 数 ， 并 且 推 断 出 对 应 的 预测 值 是 相 异 的 ， 则 删除 旧 窗 口 。 根 。” 颖 类 标的 话 ， 那 么 它 必然 会 落 入 到 另 一 个 区 域 ， 同 时 满足 高 内 


据 Hoeffding 边界 定义 两 个 窗口 的 平均 值 大 于 阔 值 sw ,如 公式 。” 聚 性 的 特点 。 
所 示 。 其 中 |w| 是 最 新 窗口 的 尺寸 , | | 和 | | 是 最 新 窗口 的 两 个 b) 在 多 类 标 检测 问题 中 ， 集 成 方法 显然 表现 出 了 比 单 分 类 
子 窗口 的 尺寸 ， 并 且 |w| =| mt] wel. m 是 两 个 子 窗口 的 调和 平 。 器 模型 更 好 的 性 能 ， 因 此 本 文 准备 用 集成 的 方法 来 解决 这 个 问 
均 数 。 题 。 考 虑 都 否 把 多 个 类 别 标签 放 在 一 个 集合 中 ， 采 用 集成 模型 
中 权重 的 方式 ， 对 集合 中 的 类 别 标签 进行 加 权 ， 在 预测 未 知 样 
a a ee s sme 本 的 类 标 时 ， 集 成 模型 给 出 一 个 最 可 能 的 类 标 ， 最 后 把 多 类 标 
A. a 问题 转换 成 了 单一 类 标 。 但 是 这 么 做 ， 会 考虑 如 何 更 新 在 集合 
324 地 标 窗口 中 全 部 的 类 标 ， 目 前 准备 还 是 采用 内 聚 性 的 特点 来 解决 这 个 问 

地 标 窗户 使 用 标记 方式 将 数据 流 分 离 为 互 不 相交 的 不 同 数 。” 题 ， 还 需要 进一步 的 研究 和 实验 。 

据 块 。 每 当 新 的 实例 到 达 地 标 时 ， 之 前 数据 块 的 全 部 实例 将 全 o) 在 重 现 概 念 漂移 中 最 难 解决 的 问题 就 是 ， 如 何 判断 新 到 


部 被 抛弃 。 通 常 集成 分 类 器 使 用 固定 大 小 为 n 的 标志 性 窗口 来 ”来 的 概念 是 否 是 学 习 器 之 前 学 习 过 的 概念 ， 因 此 将 致力 于 解决 
控制 集成 模型 更 新 周期 性 。 例 如 分 类 器 的 删除 ， 重 置 ， 添 加 或 这 一 块 问题 。 考 虑 能 否 使 用 多 集成 窗口 模型 来 解决 这 个 问题 。 

统计 重 置 。 这 种 方法 首先 在 流 式 集成 算法 SEA 中 引入 ， 后 来 用 基于 这 样 的 实验 研究 思路 : 在 子 集成 窗口 中 ， 当 最 新 数据 流 中 
于 其 他 算法 ， 如 dynamic weighted majority (DWM) 、accuracy 的 概念 流入 到 窗口 中 ， 判 断 是 否 具 有 新 颖 类 标 ， 具 有 新 颖 类 标 
update ensemble (AUE ) accuracy update ensemble2 ( AUE2) 、 那么 一 定 是 之 前 没有 学 习 过 的 ， 当 窗口 中 长 期 没有 发 生 的 概念 
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突然 重 现 了 ， 那 么 在 多 集成 窗 
测 ， 新 颖 类 标 检 测 ， 遗 忘 机 制 


中 添加 漂移 检测 和 重 现 漂移 检 
的 做 法 来 解决 这 个 问题 


5 RA 


本 文 对 现 有 的 40 多 种 数据 流 集成 分 类 算法 进行 综述 ， 详 
细 介 绍 了 各 种 算法 和 适用 的 各 种 环境 。 分 析 了 算法 的 优 缺 点 ， 
实验 数据 集 和 对 比 算法 。 在 最 后 介绍 了 进一步 研究 的 方向 和 需 
要 解决 的 问题 ， 提 出 了 研究 思路 和 问题 解决 的 办 法 。 
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